功能简介
单据票证信息抽取(固定版式)是基于深度学习的信息抽取自学习模型任务,可对版式相对固定的单据、证件、凭证等类型数据有较好的效果,支持用户自定义抽取字段,通过平台可视化引导,完成数据标注和模型训练。
在图像质量较好情况下,通过100+训练样本标注,调优后模型识别准确率可超95%+。
同时工具箱中还提供分类器管理工具与字段类型管理工具,支持用户通过同一接口完成不同版式数据的自动分类路由与高精度识别。
功能优势
高精度,基于阿里云强大的预训练模型,经过调优训练的多版式模型识别准确率可达95%以上。
少样本,仅需标注少量数据即可完成模型优化迭代,且模型具有泛化性。
低门槛,无需代码开发,开箱即用,可自主配置规则,交互友好可控。
高效率,提供智能预标注能力,多人协同标注耗时短。
应用场景
适用于版式相对固定或可枚举(不超过50种),需要结构化抽取Key-Value信息的图片或单页PDF文件。
模型有持续优化的需求,且有较多的数据样本可用于模型训练进行效果优化的单据票证类数据。如营业执照、医疗发票等财税报销,资质审核,业务内部单据结构化识别等场景。
相关链接
操作指南
「单据票证信息抽取接入视频」参考:
创建「单据票证信息抽取」流程如下图,需要超过20张图片进行训练才可完成模型创建。
步骤一: 数据准备
在「数据中心-数据集」中,用户可进行上传和管理模型任务所需数据。点击添加数据集进入上传界面,编辑数据集名称并上传相关固定版式业务数据。
单据票证信息抽取自定义模型至少需要20张训练数据,才能获得相对较好的识别抽取效果。
步骤二:数据标注
数据标注划分为标注创建环节、标注环节、质检环节三大步骤;
标注任务创建
在「数据中心-标注任务」界面中,点击「创建标注任务」进入创建界面,编辑「任务名称」以及在「上传数据」中选择需要标注的数据集或直接本地上传,完成后进入题目设置。
版面分析:若图片中的单据票证存在旋转、变形情况,亦或票证区域只占图片70%以下,则需要勾选该选项,并在后续标注环节中框选单据票证的外框。
预标注:开启OCR预标注识别后,在标注时画框之后会自动识别出框内文字内容,提高标注效率。
题目库:本任务中,已存在的题目,用户可通过查看题目库选择合适的题目用于标注任务的制定。
字段名称:识别字段对外透出的名称,即API接口中对应的名称,且字段名需全局唯一。
字段类型:字段属性定义,选择合适的字段类型可提升字段识别端到端效果,支持选择通用字段或用户自行添加自定义字段。无需后处理选择常规字段类型即可。
标注
在「数据中心-标注任务」中,选择已创建的标注任务,点击去标注进入数据标注界面。在标注工具中,可通过框选按钮进行待识别字段的框选标注,选择对应的题目,并仔细检查核对自动识别的文字内容。待所有图片及其所有待识别字段都依次完成标注后,点击提交任务完成该部分标注。
标注数据的质量(文字及位置)将直接影响模型训练的效果与评测指标。
如遇见错误数据或不可标注数据,可选择跳过该张图片。
质检
进入「数据中心-标注任务」界面,选择已标注完成的任务进行质检。质检员可进行标注修改与驳回,完整当前所有标注任务后进行任务提交。注意核对所有字段是否均已完成标注。
步骤三:模型训练与测评
进入「模型中心」,点击创建模型进入模型创建界面,进行训练集标注结果和测试集标注结果选择,同时完成基本信息填写。创建模型后成功后自动进入模型训练
「训练集」:用于训练模型的数据源,只能选择标注且质检完成的数据集作为训练集,且已被选为测试集的数据集不可再次选择。建议选择20张以上有效数据进行模型训练。
「测试集」:用于测试模型的数据源,只能选择标注且质检完成的数据集作为测试集,且已被选为训练集的数据集不可再次选择。
「自动划分1/10训练集作为测试集」:若打开此按钮,则无需手动再次选择测试集,系统直接自动划分1/10训练集作为测试集。如打开自动划分功能前已存在完成上传测试集,打开开关后,系统将忽略此前手动上传的测试集数据。
模型训练费用及预估时长。根据任务类型及数量变动,以界面显示数字为准。详情可见OCR文档自学习计费。
「训练时长」:由数据量、标注情况、机器资源等多种因素共同决定。例如采用V100机器,20张图片数据量约需1.5小时训练时长,200张图片数据量约需3小时训练时长。
算法评估评价指标:提供包括算法模型准确率及单字段准确率与检测F1值
整体准确率:算法模型准确率(Accuracy),未经规则后处理修正。即测试集中被正确识别的字段占所有字段的比例(包括内容+位置)。
单字段 - 检测F1值:综合评价指标(F1-Measure),未经规则后处理修正,为字段检测框精确率和召回率的加权调和平均,常用于评价检测模型的好坏。
单字段 - 准确率:算法模型字段识别准确率(Accuracy),未经规则后处理修正。即测试集中该字段中被正确识别的数目占总(标注框和预测框的并集,包括内容+位置)的比例。
步骤四: 模型部署
模型训练完成后,进入「模型中心-模型详情」,点击页面底部「去部署」按钮,即可开始模型部署。模型部署需要一定时间,部署成功后即可通过在线体验可视化测试模型效果或直接使用API进行在线服务调用。
OCR文档自学习自2023年8月23日开启全面商业化,模型训练按时长计费,模型推理调用按调用量计费,详情可见OCR文档自学习计费。
小工具-题目库
题目库定义:应用于「题目设置」环节,预先创建标注任务字段,此题目支持多次引用;即多标注任务若所需标注字段相同,可通过题目库选择,减少多次编辑题目人力成本并降低题目编辑错误可能性。
若重新修改题目库,不会对已经发起的标注任务或模型产生影响。